Google開源可準確辨識不同人聲的AI演算法即時辨識多人對話挑戰賽中平均100句只錯7句!!

KNOWLEDGE

網頁設計新知

文章分類列表

觀看次數：804

Google開源可準確辨識不同人聲的AI演算法

即時辨識多人對話挑戰賽中平均100句只錯7句!!

Google本周透過GitHub開源*(開放的原始碼)了可即時辨識不同人聲及話語的AI演算法，在線上解碼的準確率已高達92.4%，希望能夠拋磚引玉以激發更多類似的研究。

在模型中以「說話者自動分段標記」為辨識系統的關鍵功能，他能區分一段語音裡不同的發言者及其所說的話語!!所以只以一般的監督式學習(較為古板，訓練方式需要將資料做"標記"來讓系統記憶)用來訓練這類的系統其實並不簡單，一個完整的辨識模型必須能夠連結未曾出現在訓練中的話語及發言者，且這通常會限制線上以及離線時的標記狀況、尤其是需要馬上產生結果的即時系統。

0f282fa57ac8fc3cd18660e3f046a352_s_1

因此GOOGLE的研究人員強化了原先的監督式學習自動分段標記，命其名為[無界交錯狀態遞歸神經網路]，比循環神經網路(RNN)更有效率的方式來利用這些說話者標籤。

強化過後的模型與一般叢集演算法最大差別在所有的說話儲存的向量都是由共享參數的RNN所建構，再利用不同的時間交錯RNN狀態來區分哪個說話者。因為每個說話者都有各自的RNN空間，此藉由給予新說話者新的向量來持續更新RNN的狀態、所以當不同的人出現時就會切換到RNN實例並且更新其狀態。

45ffbf2eaf269707c6585b2bc684f437_s_1

而該模型在多人會談中成功辨識了「誰在什麼時間說了什麼話」的語音挑戰!!在NIST SRE 2000 CALLHOME基準測試中的最低錯誤率只有7.6%，也凌駕叢集方法的8.8%，以及深度神經網路嵌入方法的9.9%。而GOOGLE強調這錯誤率是基於線上解碼，另一個意思表示所研究的模型更適合用來應付即時狀況呢!!!

children-593313_640_1

BACK

您可能感興趣的其他文章

Hot 還煩惱網頁配色嗎-有海量色票-配色小事一樁-ColorHunt

Hot 靈感枯竭了嗎-設計師愛用網站-Pinterest

Hot vscode 網頁設計常用快速鍵

一招讓你肥大的圖片瞬間瘦身-免費壓縮圖片實用軟體-Caesium

除了「+」、「空格」的搜尋方法，你還會幾種搜尋技巧呢?

網頁設計配色-Canva

免費圖片網站分享-Flaticon

活動宣傳、發表產品的好助手 -- 一頁式網站 !

SSL認證過期?讓Certificate Expiry Monitor提醒你

CockroachDB釋出全託管服務，可以在不同雲端供應商間自由搬遷!!!